"""
1. 确定url地址;  当前我在浏览器地址栏中请求的urld地址的响应中是否有我想要抓取的数据
    有：直接去请求地址栏的地址
    没有：抓包
2. 发送请求 获取响应
3. 抓取数据  --- 确定数据在html源码中的位置，
4. 保存
"""
import requests
from bs4 import BeautifulSoup

# 准备数据
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36"
}
url = "http://mil.news.sina.com.cn/roll/index.d.html?cid=57918&page=1"

# 发送请求,获取响应对象
response = requests.get(url, headers=headers)

# 创建BeautifulSoup对象
soup = BeautifulSoup(response.content.decode(), "lxml")

# 层级选择器
news_list = soup.select(".linkNews li a")
print(news_list)

new_list = []
# 获取文本内容get_text()
for new in news_list:
    new_dict = {}
    new_dict["title"] = new.get_text()
    # 获取属性 get('属性的名字')
    new_dict["url"] = new.get("href")
    new_list.append(new_dict)

print(new_list)

